上海AI Lab新研究:SFT能泛化,只要满足这三个条件 上海AI Lab新研究:SFT能泛化,只要满足这三个条件 关键词: AI新闻,模型训练,SFT memorizes,RL generalizes 随着大模型后训练(Post-training)技术的发展,强化学习(RL)在提升模型推理能力方面的表现备受瞩目。 来自主题: AI技术研报 8850 点击 2026-05-13 09:59